Programmation de processeurs massivement parallèles : Une approche pratique : Dépasser le plafond séquentiel

La fin du "repas gratuit"

Pendant des décennies, les développeurs ont profité du "plafond séquentiel"—une époque où Échelle de Dennard assurait que chaque nouvelle génération de puces offrait des fréquences plus élevées. Mais nous avons atteint la Mur de puissance. La performance n'est plus fonction de la fréquence ; elle est fonction de la concurrentivité. Pour progresser, nous devons employer Pensée computationnelle pour combler l'écart entre les méthodes numériques et les modèles d'exécution parallèles modernes.

Tension entre précision et performance

Transférer un problème de domaine (comme la dynamique moléculaire) depuis un hôte multicœur vers appareils CUDA va bien au-delà d'un changement de syntaxe ; il s'agit d'un changement dans décomposition du problème. Lorsque nous parallélisons, nous modifions souvent l'ordre des opérations. Étant donné que l'arithmétique en virgule flottante n'est pas associative, nous sommes confrontés à un compromis : Précision en virgule flottante contre exactitude. Un résultat parallèle peut être mathématiquement valide mais numériquement divergent de son ancêtre séquentiel.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary reason the 'Sequential Ceiling' was reached?

The end of Moore's Law entirely.

Thermal limits and the Power Wall hindering frequency scaling.

Lack of developer interest in C++.

The transition to quantum computing.

QUESTION 2

According to Amdahl's Law, if 5% of a program is strictly sequential, what is the maximum theoretical speedup?

Infinite speedup.

Approximately 20x.

5x.

100x.

QUESTION 3

Why might a parallel Molecular Dynamics simulation yield slightly different results than a sequential one?

The CPU uses 64-bit while the GPU only uses 8-bit.

Floating-point addition is non-associative in parallel execution.

Parallel threads randomly skip calculations.

The CUDA compiler ignores numerical methods.

QUESTION 4

What does 'Problem Decomposition' involve in the context of parallel programming?

Breaking code into functions for readability.

Mapping domain-specific data to parallel execution models like threads or grids.

Deleting unnecessary variables to save memory.

Compiling the code for multiple OS targets.

QUESTION 5

Which of the following describes the 'Computational Thinking' bridge?

A hardware component between the CPU and GPU.

A framework to translate domain knowledge into architecture-aware algorithms.

An automated AI tool that writes CUDA kernels.

The process of upgrading RAM on a host machine.